大模型时代通用检测趋势解读及MMDetection未来展望

OpenMMLab OpenMMLab 2024-04-23

【OpenMMLab 社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

2023 年了，LLM 系列带来的冲击还在不断扩大，无论对于用户还是研究者影响都非常大。在此背景下通用检测应该走向何方？问题真的已经被解决了吗？我们应该关注哪些方向？MMDetection 后续应该如何适应这个变化？

本期开放麦，我们邀请到 MMDetection 核心开发者深度眸，分享他在这些问题的一些心得体会，并详细解读 MMDetection 季度更新内容。

分享内容

新形势下通用检测发展方向解读
闭集检测 Transformer SOTA 合集探讨
开集 Grounding 任务代表 GLIP 和 Grounding DINO 复现探讨
开放词汇代表算法 Detic 和多数据集联合训练探讨
检测 CNN 和 Transformer 的性能对比试验分析
FSDP 和 DeepSpeed 应用于检测大模型简单探讨
未来规划和探索

分享时间

北京时间

2023 年 10 月 19 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

深度眸

OpenMMLab 算法工程师，MMDetection 核心开发者。研究方向包括计算机视觉和机器学习，多模态目标检测、通用图像分割等。欢迎关注知乎账号【深度眸】。

内容详情

1. 新形势下通用检测发展方向解读

传统的目标检测一般指的是闭集检测，随着语言模型的发展，现在已经发展为了多模态开集检测，其中开集检测又分成多个细分方向，对应的传统意义上的分割也转变为了具备开放能力的通用分割算法。

之前传统检测任务都是热衷于在单个数据集例如 COCO 上刷分，但是如果想要具备强的零样本检测能力，那么多数据集联合训练就必不可少，这部分研究也越来越多。

大语言模型 LLM 现在是最热门研究，慢慢地也催生了大量引入了视觉模型的 MLLM 模型，如此强大的 MLLM 模型谁不想在多个下游检测任务上尝试呢？最近出现了诸多类似的工作，但是究竟是技术进步还是蹭热点呢？也就是说这类模型实用性如何还需要进一步探索。

自从 GPT4 被爆出是一个 MOE 系统，一下子 MOE 就有变成了大家重点照顾的对象，最近也出现了不少 MOE 在下游任务上的工作。

2. 闭集检测 Transformer SOTA 合集探讨

闭集检测 Transformer 方向最常用的算法是 DINO，基于 DINO 的改进有 4 个典型代表，分别是 DDQ、CO-DETR、AlignDETR 和 H-DINO，MMDetection 已经全部支持了。他们的出发点出奇的一致(这说明 DINO 算法已经被研究比较透彻了)，但是解决办法各不相同，都取得了不错的性能。通过这几个 SOTA 算法的改进，我们可以得到启发，直播中将详细分析：

Query 和 Query Pos 的初始化非常关键
高质量正样本 Query 数目多少非常关键
One-2-One 匹配有不稳定、正样本少等问题
传统检测存在的分类和回归分支优化不一致问题依然存在

3. 开集 Grounding 任务代表 GLIP

和 Grounding DINO 复现探讨

Grounding 一般也称为 Visual Grounding，但是不同的论文定义不太一样。为了方便区分，我们将 Visual Grounding 认为是一个很宽泛的任务，其又包括 Phrase Grounding 和 Referring Expression Comprehension (REC) 两个子任务，当然还可以扩展出更多和 Grounding 相关的任务。

Phrase Grounding 和开放词汇任务可以相互转化，而开放词汇检测任务用的也是传统目标检测数据集，经过这种方式的任务统一，就可以利用大量已有的检测数据集联合训练 Grounding 模型。

图片来自 DQ-DETR 论文

Grounding 任务天然就是开集检测任务，其中的典型代表算法是 GLIP 和 Grounding DINO，经过大量的图文对训练后，具备强大的 Zero-shot Grounding 能力。

这两个算法实用性很大，并考虑到用户会有微调需求，因此特意在 MMDetection 中进行了复现(目前唯一的开源微调方案，性能超过官方结果（~1 AP)。

4. 开放词汇代表算法 Detic 和

多数据集联合训练探讨

Detic 是一个非常好的开放词汇检测算法，好的体现在于：

(1) 提出了检测和分类数据联合训练的策略，这无疑极大的方便扩展了训练数据集

(2) 因为数据集很容易获取，训练后的模型具备强大的 Zero-Shot 检测能力

Detic 算法偏向实用，因此 MMDetection 特意进行了实现，希望用户可以基于该算法快速扩展到自己的应用上，同时我们也提供了多数据集联合训练的支持，不过目前还只是初步支持，还需要更多优化才能轻松实现多数据集训练和评估。

5. 检测 CNN 和 Transformer 的

性能对比试验分析

DINO 等系列 Transformer 模型频繁刷新了检测的 SOTA，从性能来看相比传统的 Faster RCNN 已经遥遥领先了，但是网上充斥着大量例如 Transformer 在自己数据集上性能极低、不收敛等等话题，那么事实真的是如此吗？有没有公平 benchmark 呢？或者说 Transformer 在某些场合才更好？

另一方面，目前目标检测模型的评估通常通过在一组固定的数据集上优化单一指标（例如 mAP），例如 Microsoft COCO 和 Pascal VOC。由于图像检索和注释成本高昂，这些数据集主要由在网络上找到的图像组成，并不能代表实际建模的许多现实领域，例如卫星、显微和游戏等，这使得很难确定模型学到的泛化程度。

为此，我们特意支持了 Roboflow-100 数据集，这是一个语义多样、多领域的数据集，可以帮助研究人员用真实数据测试模型的泛化能力。

该数据集包括 100 个子数据集，一共分成了 7 个领域，包括 748 个类别，覆盖了各种场景各种情况，例如小物体、密集场景、专业领域等等。

目前我们仅仅提供了常用的 Faster RCNN、TOOD 和 DINO 三个代表算法的 benchmark 结果，用户可以方便地添加自己的算法。

6. 其他

我们还做了其他的一些探索，例如如何在消费级显卡上成功训练相对大的视觉模型？在直播中会详细说明使用注意事项等。

交流群

同时为了方便大家交流沟通，我们还建立了目标检测相关的交流群，提供与大佬 1v1 的机会，扫码即可入群~

往期回顾

上期开放麦我们介绍了目前业界常见的一些大模型微调技术原理（如：LoRA、Prefix Tuning、Adapter Tuning 等）以及在进行大模型微调技术研究时的最佳实践分享；同时，将分享大模型微调实践过程中如何选择模型及 GPU 型号等。

分享内容包括：

背景
PEFT 原理与总结
BitFit、Prefix Tuning、Adapter Tuning、LoRA、MAM Adapter、UniPELT
PEFT 实践

感兴趣的同学，可以通过直播回放学习一下哦~

上海人工智能实验室大模型方向招聘 | 《offer来了》第3期

2023-10-13

突破视觉模型类别限制，全面支持开放域感知！OpenMMLab 季度报告请收好

2023-10-12

详解大模型评测工作流，以OpenCompass为例

2023-10-13

继续滑动看下一个

OpenMMLab

向上滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

大模型时代通用检测趋势解读及MMDetection未来展望

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

大模型时代通用检测趋势解读及MMDetection未来展望

您可能也对以下帖子感兴趣